提供全向深度以及RGB信息对于许多应用来说是重要的,例如VR / AR。然而,由于全向RGB-D数据并不总是可用的,从场景的有限信息中合成RGB-D全景数据可能是有用的。因此,一些先前的作品试图从透视RGB图像综合RGB全景图像;然而,它们遭受了有限的图像质量,不能直接扩展RGB-D全景合成。在本文中,我们研究了一个新的问题:RGB-D全景在摄像机和深度传感器的任意配置下合成。因此,我们提出了一种新型双模(RGB-D)全景合成(BIPS)框架。特别是,我们专注于RGB-D全景可以为许多应用提供完整的3D模型的室内环境。我们设计一个融合双模信息的发电机,并用残留的辅助对手学习训练(RDAL)。 RDAL允许通过共同推断RGB全景,布局深度和剩余深度来合成现实室内布局结构和内饰。此外,由于RGB-D全景合成没有定制评估度量,我们提出了一种新颖的指标,以有效地评估其感知质量。广泛的实验表明,我们的方法合成了高质量的室内RGB-D全景,并提供了比现有方法的现实3D室内型号。代码将在接受时发布。
translated by 谷歌翻译
事件相机感测每个像素强度更改,并产生具有高动态范围和运动模糊的异步事件流,显示出与传统相机的优势。训练基于事件的模型的障碍是缺乏大规模标记的数据。现有作品学习结束任务主要依赖于从有源像素传感器(APS)帧获得的标记或伪标记的数据集;然而,这种数据集的质量远远远非基于规范图像的那些。在本文中,我们提出了一种新颖的方法,称为\ textbf {evdistill},通过来自培训的教师网络的知识蒸馏(KD)来学习未标记和未配对的事件数据(目标模型)的学生网络图像数据(源码模式)。为了使KD跨越未配对的模态,我们首先提出了双向模型重建(BMR)模块来桥接两种方式,并同时利用它们通过制造的对蒸馏到知识,从而导致推断不额外计算。 BMR通过端到端的端到端的终端任务和KD损耗得到改善。其次,我们利用两种方式的结构相似之处,并通过匹配其分布来调整知识。此外,由于大多数先前的特征KD方法是单态的,而且对我们的问题不太适用,我们建议利用亲和力图KD损失来提高蒸馏。我们对语义分割和对象识别的广泛实验表明,Evdistill达到了比现有的作品和仅具有事件和APS帧的效果更好的结果。
translated by 谷歌翻译
事件摄像机是一种新型传感器,可感知每个像素强度变化,并输出具有高动态范围和运动模糊的异步事件流。已经证明,仅基于编码器解码器类似网络,单独的事件可以用于最终任务学习,例如语义分割。然而,由于事件稀疏并且大多数反映边缘信息,因此难以仅依赖于解码器恢复原始细节。此外,大多数方法对像素 - 明智的损失单独进行监督,这可能不足以完全利用稀疏事件的视觉细节,从而导致更少的性能。在本文中,我们提出了一个名为双传输学习(DTL)的简单且灵活的双流框架,以有效地增强了最终任务的性能,而无需增加额外推理成本。所提出的方法包括三个部分:事件到结束任务学习(EEL)分支,事件到图像转换(EIT)分支,以及传输学习(TL)模块,同时探讨特征级亲和信息和像素级知识EIT分支改善鳗鱼分公司。这种简单的新颖的方法导致了从事件中学习的强烈表示,并且通过最终任务(如语义分割和深度估计)的显着性能提升证明。
translated by 谷歌翻译
How can we accurately identify new memory workloads while classifying known memory workloads? Verifying DRAM (Dynamic Random Access Memory) using various workloads is an important task to guarantee the quality of DRAM. A crucial component in the process is open-set recognition which aims to detect new workloads not seen in the training phase. Despite its importance, however, existing open-set recognition methods are unsatisfactory in terms of accuracy since they fail to exploit the characteristics of workload sequences. In this paper, we propose Acorn, an accurate open-set recognition method capturing the characteristics of workload sequences. Acorn extracts two types of feature vectors to capture sequential patterns and spatial locality patterns in memory access. Acorn then uses the feature vectors to accurately classify a subsequence into one of the known classes or identify it as the unknown class. Experiments show that Acorn achieves state-of-the-art accuracy, giving up to 37% points higher unknown class detection accuracy while achieving comparable known class classification accuracy than existing methods.
translated by 谷歌翻译
The cone-beam computed tomography (CBCT) provides 3D volumetric imaging of a target with low radiation dose and cost compared with conventional computed tomography, and it is widely used in the detection of paranasal sinus disease. However, it lacks the sensitivity to detect soft tissue lesions owing to reconstruction constraints. Consequently, only physicians with expertise in CBCT reading can distinguish between inherent artifacts or noise and diseases, restricting the use of this imaging modality. The development of artificial intelligence (AI)-based computer-aided diagnosis methods for CBCT to overcome the shortage of experienced physicians has attracted substantial attention. However, advanced AI-based diagnosis addressing intrinsic noise in CBCT has not been devised, discouraging the practical use of AI solutions for CBCT. To address this issue, we propose an AI-based computer-aided diagnosis method using CBCT with a denoising module. This module is implemented before diagnosis to reconstruct the internal ground-truth full-dose scan corresponding to an input CBCT image and thereby improve the diagnostic performance. The external validation results for the unified diagnosis of sinus fungal ball, chronic rhinosinusitis, and normal cases show that the proposed method improves the micro-, macro-average AUC, and accuracy by 7.4, 5.6, and 9.6% (from 86.2, 87.0, and 73.4 to 93.6, 92.6, and 83.0%), respectively, compared with a baseline while improving human diagnosis accuracy by 11% (from 71.7 to 83.0%), demonstrating technical differentiation and clinical effectiveness. This pioneering study on AI-based diagnosis using CBCT indicates denoising can improve diagnostic performance and reader interpretability in images from the sinonasal area, thereby providing a new approach and direction to radiographic image reconstruction regarding the development of AI-based diagnostic solutions.
translated by 谷歌翻译
2型糖尿病(T2DM)的早期诊断对于及时的治疗干预措施和生活方式改变至关重要。随着医学成像数据在许多患者群体中变得更广泛可用,我们试图研究是否可以在表格学习分类器模型中利用图像衍生的表型数据来预测T2DM的发病率,而无需使用侵入性血液实验室测量。我们表明,使用图像衍生表型的神经网络和决策树模型都可以预测患者T2DM状态的召回评分高达87.6%。我们还提出了与“ Syntha1c编码器”相同的结构的新颖使用,这些结构能够输出模仿血液血红蛋白A1C经验实验室测量值的可解释值。最后,我们证明了T2DM风险预测模型对输入矢量成分中小扰动的敏感性可用于预测从以前看不见的患者人群中取样的协变量的性能。
translated by 谷歌翻译
占用映射已被广泛用于代表自动驾驶机器人的周围环境,以执行导航和操纵等任务。尽管在2D环境中进行了占用映射,但很少有适合3-D动态占用映射的方法,这对于空中机器人必不可少。本文提出了一种新颖的3-D动态占用映射算法,称为DSK3DOM。我们首先建立了一种贝叶斯方法,以基于随机有限集理论来依次更新占用图作为测量流。然后,我们用Dempster-Shafer域中的粒子近似它,以实现实时计算。此外,该算法将基于内核的推论与Dirichlet基本信念分配相关,以从稀疏测量中实现密集的映射。通过模拟和实际实验证明了所提出算法的功效。
translated by 谷歌翻译
在本文中,我们建议利用对话的独特特征,共享参与者的常识性知识,以解决总结它们的困难。我们提出了病态的框架,该框架使用常识推论作为其他背景。与以前仅依赖于输入对话的工作相比,Sick使用外部知识模型来生成丰富的常识推断,并选择具有基于相似性选择方法的最可能的推理。基于生病的,病人++的理解为监督,在总结多任务学习环境中的对话时,添加了产生常识推断的任务。实验结果表明,通过注入常识性知识,我们的框架比现有方法产生更多信息和一致的摘要。
translated by 谷歌翻译
嵌入学习是深度建议模型中的重要技术,可以将分类特征映射到密集的矢量。但是,嵌入表通常需要大量参数,这些参数成为存储和效率瓶颈。已经采用了分布式培训解决方案将嵌入表分配到多个设备中。但是,如果不仔细分区,则嵌入表很容易导致失衡。这是名为“嵌入桌碎片”的分布式系统的重大设计挑战,即,我们应该如何对嵌入表进行分配以平衡跨设备的成本,这是一项非平凡的任务,因为1)很难有效,精确地衡量成本,和2)已知分区问题是NP-HARD。在这项工作中,我们在Meta中介绍了新颖的实践,即Autoshard,该实践使用神经成本模型直接预测多桌成本和利用深度强化学习以解决分区问题。开源的大规模合成数据集和Meta生产数据集的实验结果证明了Autoshard的优越性优于启发式方法。此外,Autoshard的学习政策可以转移到具有不同数量的表和不同表格比率的碎片任务中,而无需进行任何微调。此外,Autoshard可以在几秒钟内有效地将数百张桌子碎片。 Autoshard的有效性,可转移性和效率使其适合生产使用。我们的算法已在元生产环境中部署。可以在https://github.com/daochenzha/autoshard上获得原型
translated by 谷歌翻译
基于知识的视觉问题答案(KVQA)任务旨在回答需要其他外部知识以及对图像和问题的理解的问题。关于KVQA的最新研究以多模式形式注入外部知识,并且随着更多的知识,可能会添加无关紧要的信息,并且可能会混淆问题的回答。为了正确使用知识,本研究提出了以下内容:1)我们介绍了根据标题不确定性和语义相似性计算出的新型语义不一致度量;2)我们建议一种基于语义不一致度量的新的外部知识同化方法,并将其应用于集成KVQA的明确知识和隐性知识;3)使用OK-VQA数据集评估所提出的方法并实现最新性能。
translated by 谷歌翻译